视网膜光学相干断层扫描(OCT)和光学相干断层扫描(OCTA)是(早期)诊断阿尔茨海默氏病(AD)的有前途的工具。这些非侵入性成像技术比替代神经影像工具更具成本效益,更容易获得。但是,即使对于训练有素的从业人员来说,解释和分类OCT设备进行的多层扫描也是耗时和挑战。关于机器学习和深度学习方法的调查,涉及对诸如青光眼等各种疾病的OCT扫描自动分析。但是,目前的文献缺乏对使用OCT或OCTA诊断阿尔茨海默氏病或​​认知障碍的广泛调查。这促使我们进行了针对需要介绍该问题的机器/深度学习科学家或从业者的全面调查。本文包含1)对阿尔茨海默氏病和认知障碍的医学背景介绍及其使用OCT和八八片成像方式的诊断,2)从自动分析的角度审查有关该问题的各种技术建议和子问题的回顾,3 )对最近的深度学习研究和可用的OCT/OCTA数据集的系统综述,旨在诊断阿尔茨海默氏病和认知障碍。对于后者,我们使用发布或灭亡软件来搜索来自Scopus,PubMed和Web Science等各种来源的相关研究。我们遵循PRISMA方法筛选了3073参考的初始库,并确定了直接针对AD诊断的十项相关研究(n = 10,3073分)。我们认为缺乏开放的OCT/OCTA数据集(关于阿尔茨海默氏病)是阻碍该领域进展的主要问题。
translated by 谷歌翻译
Visual language such as charts and plots is ubiquitous in the human world. Comprehending plots and charts requires strong reasoning skills. Prior state-of-the-art (SOTA) models require at least tens of thousands of training examples and their reasoning capabilities are still much limited, especially on complex human-written queries. This paper presents the first one-shot solution to visual language reasoning. We decompose the challenge of visual language reasoning into two steps: (1) plot-to-text translation, and (2) reasoning over the translated text. The key in this method is a modality conversion module, named as DePlot, which translates the image of a plot or chart to a linearized table. The output of DePlot can then be directly used to prompt a pretrained large language model (LLM), exploiting the few-shot reasoning capabilities of LLMs. To obtain DePlot, we standardize the plot-to-table task by establishing unified task formats and metrics, and train DePlot end-to-end on this task. DePlot can then be used off-the-shelf together with LLMs in a plug-and-play fashion. Compared with a SOTA model finetuned on more than >28k data points, DePlot+LLM with just one-shot prompting achieves a 24.0% improvement over finetuned SOTA on human-written queries from the task of chart QA.
translated by 谷歌翻译
Visual language data such as plots, charts, and infographics are ubiquitous in the human world. However, state-of-the-art vision-language models do not perform well on these data. We propose MatCha (Math reasoning and Chart derendering pretraining) to enhance visual language models' capabilities in jointly modeling charts/plots and language data. Specifically, we propose several pretraining tasks that cover plot deconstruction and numerical reasoning which are the key capabilities in visual language modeling. We perform the MatCha pretraining starting from Pix2Struct, a recently proposed image-to-text visual language model. On standard benchmarks such as PlotQA and ChartQA, the MatCha model outperforms state-of-the-art methods by as much as nearly 20%. We also examine how well MatCha pretraining transfers to domains such as screenshots, textbook diagrams, and document figures and observe overall improvement, verifying the usefulness of MatCha pretraining on broader visual language tasks.
translated by 谷歌翻译
狗主人通常能够识别出揭示其狗的主观状态的行为线索,例如疼痛。但是自动识别疼痛状态非常具有挑战性。本文提出了一种基于视频的新型,两流深的神经网络方法,以解决此问题。我们提取和预处理身体关键点,并在视频中计算关键点和RGB表示的功能。我们提出了一种处理自我十分和缺少关键点的方法。我们还提出了一个由兽医专业人员收集的独特基于视频的狗行为数据集,并注释以进行疼痛,并通过建议的方法报告良好的分类结果。这项研究是基于机器学习的狗疼痛状态估计的第一批作品之一。
translated by 谷歌翻译
为了促进任务对话框中的零拍概括,本文建议语言模型作为数据(LAD)。LAD是创建各种准确的合成数据的范式,该数据传达了必要的结构约束,可用于训练下游神经对话模型。LAD利用GPT-3诱导语言多样性。LAD在意图预测(+15%),插槽填充(+31.4 f-1)和下一个动作预测(+11 F1)上,在零拍设置中获得了显着的性能增长。此外,互动的人类评估表明,与LAD的培训具有在人类对话中的培训竞争。LAD是开源的,并在https://github.com/shikib/lad上获得了代码和数据。
translated by 谷歌翻译
串联连接的机器人是希望在大规模灾害中的搜索和救援等限制空间中执行任务的候选人。这种机器人通常是韧带,我们假设肢体的添加可以改善移动性。然而,在设计和控制这种装置方面的挑战在于以提高移动性的方式协调高维冗余模块。在这里,我们开发了一个控制串联连接的多腿机器人的一般框架。具体地,我们结合了两种方法来构建一般的形状控制方案,其可以为各种机器人形态的有效运动提供自变形(“Gaits”)的基线模式。首先,我们从维度降低和生物步态分类方案中获取灵感,以产生身体变形和脚提升/降低的循环模式,其促进了任意基板接触图案的产生。其次,我们使用几何力学方法来促进识别这些起伏的最佳相位,以最大化速度和/或稳定性。我们的方案允许在扁平摩擦地形上的多腿机器人机车上的有效Gaits开发有多种数量的四肢(4,6,16,甚至0四肢)和身体致动能力(包括在Limbless设备上的侧壁Gaits)。通过适当协调身体波动和腿部放置,我们的框架结合了Limbless机器人(模块化)和腿机器人(移动性)的优势。我们预计我们的框架可以提供一般的控制方案,以便快速部署一般的多腿机器人,铺平往达在现实条件下遍历复杂环境的机器的方式。
translated by 谷歌翻译